भारतीय कंपनियों द्वारा LLMs का प्रशिक्षण

पाठ्यक्रम: GS3/ विज्ञान और प्रौद्योगिकी

संदर्भ

बेंगलुरु-स्थित स्टार्टअप सर्वम AI ने दो स्वदेशी विशाल भाषा मॉडल (LLMs) प्रस्तुत किए, जो वैश्विक प्रतिस्पर्धा के बीच भारत के सार्वभौमिक, बहुभाषी और संगणनात्मक रूप से दक्ष कृत्रिम बुद्धिमत्ता (AI) की दिशा में प्रयासों को रेखांकित करते हैं।

विशाल भाषा मॉडल (LLMs)

एक विशाल भाषा मॉडल (LLM) कृत्रिम बुद्धिमत्ता (AI) का ऐसा एल्गोरिद्म है जो गहन शिक्षण तकनीकों और अत्यधिक बड़े डाटा सेट का उपयोग करके सामग्री को समझने, संक्षेपित करने, उत्पन्न करने एवं नई सामग्री का पूर्वानुमान लगाने में सक्षम होता है।
गहन शिक्षण असंरचित डाटा का प्रायिक विश्लेषण करता है, जिससे मॉडल बिना मानवीय हस्तक्षेप के विभिन्न प्रकार की सामग्री के बीच अंतर पहचानने में सक्षम होता है।
यह समझने में सहायता करता है कि अक्षर, शब्द और वाक्य एक साथ कैसे कार्य करते हैं।

भारत में स्वदेशी LLM पारिस्थितिकी तंत्र

सर्वम AI मॉडल: दक्षता, सटीकता और भारतीय भाषाओं की क्षमता पर केंद्रित। इन्हें मुक्त-स्रोत बनाने का उद्देश्य है, यद्यपि व्यापक सार्वजनिक परीक्षण जारी है।
भारतजेन: IIT बॉम्बे में विकसित, जिसने शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
ज्ञानी.ai(Gnani.ai): संक्षिप्त भाषण और पाठ-से-भाषण मॉडल प्रस्तुत किए।

LLMs का प्रशिक्षण कैसे होता है?

GPU क्लस्टर: LLM प्रशिक्षण के लिए अत्यधिक संगणनात्मक शक्ति की आवश्यकता होती है, जिसमें ग्राफिक्स प्रोसेसिंग यूनिट्स (GPUs) के क्लस्टर का उपयोग किया जाता है। हज़ारों GPUs सप्ताहों या महीनों तक एक साथ कार्य करते हैं।
डाटा मुख्य इनपुट के रूप में: प्रशिक्षण विशाल डाटा सेट पर आधारित होता है, जो प्रायः इंटरनेट से संकलित किए जाते हैं।
मॉडल पैरामीटर: पैरामीटर आंतरिक भार को दर्शाते हैं जिनके माध्यम से मॉडल पैटर्न सीखते हैं। सर्वम AI ने 35 बिलियन और 105 बिलियन पैरामीटर वाले मॉडल प्रशिक्षित किए।
- अधिक पैरामीटर क्षमता को बढ़ाते हैं, किंतु अधिक संगणनात्मक शक्ति की आवश्यकता होती है।

प्रमुख प्रशिक्षण पद्धतियाँ

डाटा संकलन: भारतीय भाषाओं में उच्च-गुणवत्ता वाले डाटा सेट एकत्रित करना।
- इसमें सरकारी दस्तावेज़, साहित्य, मीडिया और कृत्रिम डाटा निर्माण शामिल है।
- यह अंग्रेज़ी-केंद्रित AI प्रणालियों से आगे प्रदर्शन सुधारने के लिए महत्वपूर्ण है।
पूर्व-प्रशिक्षण (Pre-Training): मॉडल बड़े असंरचित डाटा सेट में आगामी टोकन की भविष्यवाणी करके सामान्य भाषा पैटर्न सीखते हैं।
- यह चरण तर्क और व्याकरण की आधारभूत क्षमता विकसित करता है।
सूक्ष्म-प्रशिक्षण (Fine-Tuning): मॉडल को विशिष्ट कार्यों के लिए संकलित डाटा सेट का उपयोग करके अनुकूलित किया जाता है।
- हगिंग फेस(Hugging Face) और लैंगचेन(LangChain) जैसे उपकरण निर्देश-प्रशिक्षण, वर्गीकरण और क्षेत्रीय अनुकूलन में सहायक होते हैं।
संरेखण/RLHF (मानवीय प्रतिक्रिया से सुदृढीकरण शिक्षण): मानव मूल्यांकनकर्ता मॉडल के आउटपुट को रैंक करते हैं ताकि यह अधिक सुरक्षित, सटीक और मानवीय उद्देश्य के अनुरूप बने, तथा हानिकारक या पक्षपाती प्रतिक्रियाओं को हतोत्साहित किया जा सके।

भारत में LLM प्रशिक्षण की चुनौतियाँ

भारतीय भाषाओं में सीमित डाटा: उच्च-गुणवत्ता वाले डाटा सेट की कमी मॉडल के प्रदर्शन को घटाती है।
- कई प्रणालियाँ पहले अंग्रेज़ी में अनुवाद पर निर्भर करती हैं, जिससे टोकन उपयोग और विलंबता बढ़ती है। मूल भाषाओं में कमज़ोर प्रदर्शन गैर-अंग्रेज़ी उपयोगकर्ताओं के बीच अपनाने को प्रभावित करता है।
उच्च पूंजीगत आवश्यकताएँ: अग्रणी मॉडल का प्रशिक्षण भारी वित्तीय निवेश मांगता है। स्टार्टअप्स के पास प्रायः तत्काल व्यावसायिक लाभ नहीं होते जो ऐसे व्यय को उचित ठहरा सकें।
बुनियादी ढाँचे की सीमाएँ: उच्च-स्तरीय संगणनात्मक सुविधाओं तक पहुँच सरकार के समर्थन के बिना सीमित रहती है।

इंडियाएआई मिशन

इंडियाएआई मिशन भारत के लिए एक व्यापक, स्वदेशी AI पारिस्थितिकी तंत्र बनाने की प्रमुख पहल है।
यह उच्च-प्रदर्शन संगणनात्मक बुनियादी ढाँचे, स्वदेशी आधारभूत मॉडल और सुरक्षित, नैतिक AI के विकास पर केंद्रित है, “भारत में AI बनाना एवं भारत के लिए AI को कार्यशील बनाना” की दृष्टि के अंतर्गत।
भारत ने 38,000 GPUs प्राप्त किए हैं, जो विश्व-स्तरीय AI संसाधनों तक सुलभ और किफ़ायती पहुँच प्रदान करते हैं।
- GPU या ग्राफिक्स प्रोसेसिंग यूनिट एक शक्तिशाली कंप्यूटर चिप है जो मशीनों को तीव्रता से सोचने, चित्रों को संसाधित करने, AI प्रोग्राम चलाने और जटिल कार्यों को सामान्य प्रोसेसर की तुलना में अधिक दक्षता से संभालने में सक्षम बनाता है।

स्रोत: TH

Previous article ऊर्जा असंतुलन और एल नीनो की बदलती गतिशीलता

Next article ब्लॉकचेन आधारित डिजिटल शासन

Other News of the Day

पाठ्यक्रम: GS1/भूगोल संदर्भ हाल ही के एक अध्ययन से पता चलता है कि वर्ष 2022 में पृथ्वी के ऊर्जा असंतुलन में वृद्धि मुख्यतः “ट्रिपल-डिप” ला नीना से गर्म एल नीनो की ओर संक्रमण तथा दीर्घकालिक जलवायु परिवर्तन के कारण हुई। पृथ्वी का ऊर्जा असंतुलन अध्ययन पृथ्वी का ऊर्जा असंतुलन (EEI) उस अंतर को संदर्भित करता...
Read More

पाठ्यक्रम: GS3/विज्ञान एवं प्रौद्योगिकी संदर्भ ब्लॉकचेन इंडिया चैलेंज, जिसे इलेक्ट्रॉनिक्स एवं सूचना प्रौद्योगिकी मंत्रालय (MeitY) द्वारा प्रारंभ किया गया है, एक राष्ट्रीय पहल है जिसका उद्देश्य दूरदर्शी भारतीय स्टार्टअप्स को प्रोत्साहित करना है ताकि वे ब्लॉकचेन आधारित डिजिटल शासन समाधान प्रस्तुत कर सकें और उनका परीक्षण कर सकें। ब्लॉकचेन क्या है? ब्लॉकचेन एक वितरित, पारदर्शी,...
Read More

पाठ्यक्रम: GS3/पर्यावरण समाचारों में हाल ही में यह देखा गया है कि कार्बन कैप्चर एवं उपयोग (CCU) प्रौद्योगिकियाँ भारत के नेट-ज़ीरो उत्सर्जन लक्ष्यों को प्राप्त करने के लिए अत्यावश्यक हैं, विशेषकर सीमेंट जैसे कठिन-से-नियंत्रित क्षेत्रों में। कार्बन कैप्चर एवं उपयोग (CCU) यह उन प्रौद्योगिकियों का समूह है जो औद्योगिक स्रोतों या सीधे वायुमंडल से कार्बन...
Read More

RAMP कार्यक्रम पाठ्यक्रम: GS2/शासन संदर्भ पाँचवीं राष्ट्रीय MSME परिषद ने विश्व बैंक समर्थित RAMP कार्यक्रम की प्रगति की समीक्षा की है। रेजिंग एंड एक्सेलरेटिंग एमएसएमई परफॉर्मेंस (RAMP) RAMP एक विश्व बैंक समर्थित केंद्रीय क्षेत्र योजना है जिसका उद्देश्य MSMEs की बाज़ार, वित्त और प्रौद्योगिकी उन्नयन तक पहुँच को बेहतर बनाना है, तथा वर्तमान MoMSME योजनाओं...
Read More